Telegram Group »
Germany »
Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение » Telegram Webview
🔥 Модели, релизы и технологии:
— AlphaEvolve — новый кодинг-агент для сложных алгоритмов
— Model Context Protocol (MCP) — мост между LLM и любыми API
— Hugging Face + Kaggle — совместный доступ к моделям для всех
🧠 Статьи, исследования и лучшие практики:
— Continuous Thought Machine — новая архитектура от SakanaAI, вдохновлённая биологией
— LLM превзошли врачей — OpenAI выпускает медицинский бенчмарк
— Инженерные хаки от DeepSeek — обучение и инференс без боли
— System prompt Claude — слит весь Claude на 24k токенов
📘 Обучение и развитие:
— fit() для новичков — просто и понятно
— От студента до AI-инженера — карьерный гайд
— MLечный путь 2025 — репортаж с коммьюнити-мероприятия
— Как прокачаться джуниору в ML — полезная подборка
🛠 Практика и инструменты:
— Разворачиваем нейросеть на VPS — FastAPI + Hugging Face за 15 минут
— Точная OCR через декомпозицию — кейс Avito
💬 Мнение:
— Интервью про ИИ, которое меня выбесило — критика, сатира, реакция
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Стажёр аналитик Spark Hadoop BigData — от 60 000 до 100 000 ₽, гибрид (Москва)
Data Engineer ML — от 220 000 до 320 000 ₽, удалёнка
Data Scientist, гибрид (Москва)
Ведущий инженер поддержки Data Platform (Yandex Cloud), гибрид (Москва)
Дата Саентист (Data Scientist), офис (Москва)
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Платформы с Low-Code AI обещают быстрое внедрение без строчки кода. Но под нагрузкой они часто не справляются:
Вот как заставить low-code работать в реальном масштабе:
Используйте сервисы с автоскейлингом (например, Azure Kubernetes Service, AWS SageMaker Pipelines). Избегайте базовых конфигураций — они не выдерживают нагрузку.
Очищайте данные пользователя после каждого запроса. Не полагайтесь на сохранённое состояние, если не контролируете его.
Следите за:
— Временем ответа API
— Процентом ошибок
— Использованием ресурсов
— Добавьте бизнес-метрики (например, конверсия, влияние на продажи).
Размещайте модели через балансировщики нагрузки. Настройте масштабирование по CPU или задержке.
Каждое обновление — новая версия. Тестируйте в staging и проводите A/B-тесты.
Когда low-code — хороший выбор
📌 Low-code не значит «всё само заработает». Масштаб требует инженерного подхода.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Даже самая точная модель на этапе разработки может со временем «поплыть» — из-за изменений в данных, поведении пользователей или внешней среды.
В новом материале разбираемся:
— какие метрики важно отслеживать после деплоя,
— когда запускать A/B-тесты,
— как строить систему алертов и реагировать на деградацию,
— и почему переобучение — не признак провала, а часть жизненного цикла ML.
👉 Читайте статью здесь: https://proglib.io/sh/fjpFLVWn8Z
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Создавайте ML-модели с помощью естественного языка с Plexe
Почему бы не упростить создание моделей машинного обучения?
Plexe — это Python-библиотека, которая позволяет вам описывать задачу на естественном языке. После этого команда интеллектуальных агентов на базе LLM берёт всё в свои руки: от построения архитектуры до обучения и тестирования.
📌 Пример:
Основные возможности:
— Описание модели на естественном языке
— Многоагентная система (анализ, генерация кода, тесты)
— Автоматизированное построение моделей в один метод
— Поддержка распределённого обучения (Ray)
— Генерация данных и автоматический вывод схем
— Интеграция с OpenAI, Anthropic, HuggingFace и другими LLM-провайдерами
📦 Установка:
🔗 Ознакомиться с проектом и примерами: https://clc.to/Fs6A-g
Библиотека дата-сайентиста #буст
Почему бы не упростить создание моделей машинного обучения?
Plexe — это Python-библиотека, которая позволяет вам описывать задачу на естественном языке. После этого команда интеллектуальных агентов на базе LLM берёт всё в свои руки: от построения архитектуры до обучения и тестирования.
📌 Пример:
import plexe
model = plexe.Model(
intent="Предсказать тональность новостных статей",
input_schema={"headline": str, "content": str},
output_schema={"sentiment": str}
)
model.build(
datasets=[your_dataset],
provider="openai/gpt-4o-mini"
)
prediction = model.predict({
"headline": "Прорыв в области ИИ",
"content": "Учёные достигли впечатляющих результатов..."
})
Основные возможности:
— Описание модели на естественном языке
— Многоагентная система (анализ, генерация кода, тесты)
— Автоматизированное построение моделей в один метод
— Поддержка распределённого обучения (Ray)
— Генерация данных и автоматический вывод схем
— Интеграция с OpenAI, Anthropic, HuggingFace и другими LLM-провайдерами
📦 Установка:
pip install plexe
🔗 Ознакомиться с проектом и примерами: https://clc.to/Fs6A-g
Библиотека дата-сайентиста #буст
🥵 Устали от статей, где эйчары рассказывают, как на самом деле выглядит рынок труда в ИТ?
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Что посмотреть: интервью с лидерами Google об ИИ, AGI и будущем разума
На Google I/O прошла живая дискуссия с Демисом Хассабисом (CEO DeepMind), Сергеем Брином (сооснователь Google) и Алексом Кантровицем. Темой стало развитие ИИ и возможный путь к AGI — искусственному общему интеллекту.
Обсудили:
— Есть ли предел масштабированию ИИ-моделей
— Как новые методы рассуждений меняют ИИ
— Когда (и будет ли) AGI
— ИИ-агенты Project Astra и подход AlphaEvolve (самообучение ИИ)
— Уроки от Google Glass и проблемы качества данных
— И да: затронули веб, симуляции и сроки появления AGI
🔗 Смотреть видео: https://clc.to/yMl_og
Библиотека дата-сайентиста #буст
На Google I/O прошла живая дискуссия с Демисом Хассабисом (CEO DeepMind), Сергеем Брином (сооснователь Google) и Алексом Кантровицем. Темой стало развитие ИИ и возможный путь к AGI — искусственному общему интеллекту.
Обсудили:
— Есть ли предел масштабированию ИИ-моделей
— Как новые методы рассуждений меняют ИИ
— Когда (и будет ли) AGI
— ИИ-агенты Project Astra и подход AlphaEvolve (самообучение ИИ)
— Уроки от Google Glass и проблемы качества данных
— И да: затронули веб, симуляции и сроки появления AGI
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Команда дня: einsum или как реализовать multi-head self-attention без единого цикла
Если вы работаете с нейросетями, особенно с трансформерами, то, скорее всего, сталкивались с реализациями self-attention, переполненными циклами. Однако благодаря
Вот пример реализации:
💡
📌 Почему стоит обратить внимание:
— Полная векторизация — минимум циклов, максимум скорости;
— Код ближе к математике, а значит — легче проверять;
— Можно выразить довольно сложные операции с тензорами в одной строке.
Библиотека дата-сайентиста #буст
Если вы работаете с нейросетями, особенно с трансформерами, то, скорее всего, сталкивались с реализациями self-attention, переполненными циклами. Однако благодаря
np.einsum
можно выразить всю механику multi-head attention в компактной и векторизованной форме.Вот пример реализации:
def multi_head_attention(X, W_q, W_k, W_v, W_o):
d_k = W_k.shape[-1]
Q = np.einsum('si,hij->hsj', X, W_q) # (n_heads, seq_len, d_k)
K = np.einsum('si,hik->hsk', X, W_k)
V = np.einsum('si,hiv->hsv', X, W_v)
scores = Q @ K.transpose(0, 2, 1) / np.sqrt(d_k)
weights = softmax(scores, axis=-1)
output = weights @ V
projected = np.einsum('hsv,hvd->hsd', output, W_o)
return projected.transpose(1, 0, 2).reshape(seq_len, -1)
💡
einsum
— мощный инструмент для выражения сложных операций с многомерными массивами. Особенно полезен, когда нужно точно контролировать свёртки и трансформации осей. В задачах NLP и computer vision это буквально незаменимая вещь.📌 Почему стоит обратить внимание:
— Полная векторизация — минимум циклов, максимум скорости;
— Код ближе к математике, а значит — легче проверять;
— Можно выразить довольно сложные операции с тензорами в одной строке.
Библиотека дата-сайентиста #буст
🎯 ТОП-5 структур данных для обработки изображений
⠀
Как компьютеры «видят» изображения?
Какие структуры помогают выделять объекты, экономить память и ускорять алгоритмы?
⠀
В этом посте — ключевые структуры, без которых не обойтись в компьютерном зрении:
🔹 Матрицы
🔹 Цепи
🔹 Графы
🔹 Пирамиды
🔹 Квадродеревья
⠀
✅ Понятные примеры, плюсы и минусы, где применяются — всё на карточках.
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/nitr6FEIjR
Библиотека дата-сайентиста #буст
⠀
Как компьютеры «видят» изображения?
Какие структуры помогают выделять объекты, экономить память и ускорять алгоритмы?
⠀
В этом посте — ключевые структуры, без которых не обойтись в компьютерном зрении:
🔹 Матрицы
🔹 Цепи
🔹 Графы
🔹 Пирамиды
🔹 Квадродеревья
⠀
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/nitr6FEIjR
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM